The number of international benchmarking competitions is steadily increasing in various fields of machine learning (ML) research and practice. So far, however, little is known about the common practice as well as bottlenecks faced by the community in tackling the research questions posed. To shed light on the status quo of algorithm development in the specific field of biomedical imaging analysis, we designed an international survey that was issued to all participants of challenges conducted in conjunction with the IEEE ISBI 2021 and MICCAI 2021 conferences (80 competitions in total). The survey covered participants' expertise and working environments, their chosen strategies, as well as algorithm characteristics. A median of 72% challenge participants took part in the survey. According to our results, knowledge exchange was the primary incentive (70%) for participation, while the reception of prize money played only a minor role (16%). While a median of 80 working hours was spent on method development, a large portion of participants stated that they did not have enough time for method development (32%). 25% perceived the infrastructure to be a bottleneck. Overall, 94% of all solutions were deep learning-based. Of these, 84% were based on standard architectures. 43% of the respondents reported that the data samples (e.g., images) were too large to be processed at once. This was most commonly addressed by patch-based training (69%), downsampling (37%), and solving 3D analysis tasks as a series of 2D tasks. K-fold cross-validation on the training set was performed by only 37% of the participants and only 50% of the participants performed ensembling based on multiple identical models (61%) or heterogeneous models (39%). 48% of the respondents applied postprocessing steps.
translated by 谷歌翻译
We propose eXtensible Prompt (X-Prompt) for prompting a large language model (LLM) beyond natural language (NL). X-Prompt instructs an LLM with not only NL but also an extensible vocabulary of imaginary words that are introduced to help represent what NL words hardly describe, allowing a prompt to be more descriptive. Like NL prompts, X-Prompt is out-of-distribution (OOD) robust, for which we propose context-guided learning with prompt augmentation to learn its imaginary words for general usability, enabling them to use in different prompt contexts for fine-grain specifications. The promising results of X-Prompt demonstrate its potential of approaching advanced interaction between humans and LLMs to bridge their communication gap.
translated by 谷歌翻译
非视线(NLOS)成像是一种用于检测障碍物或角落周围物体的物体的新兴技术。关于被动NLOS的最新研究主要集中在稳态测量和重建方法上,这些方法显示出识别移动目标的局限性。据我们所知,我们提出了一种新颖的基于事件的无源NLOS成像方法。我们获得了基于事件的异步数据,其中包含NLOS目标的详细动态信息,并有效缓解由运动引起的斑点降解。此外,我们创建了第一个基于事件的NLOS成像数据集NLOS-ES,并且由时间表面表示提取基于事件的功能。我们通过基于事件的数据与基于框架的数据比较重建。基于事件的方法在PSNR和LPIP上表现良好,该方法比基于框架的方法好20%和10%,而数据量仅占传统方法的2%。
translated by 谷歌翻译
尖峰神经网络(SNNS)模仿大脑计算策略,并在时空信息处理中表现出很大的功能。作为人类感知的基本因素,视觉关注是指生物视觉系统中显着区域的动态选择过程。尽管视觉注意力的机制在计算机视觉上取得了巨大成功,但很少会引入SNN中。受到预测注意重新映射的实验观察的启发,我们在这里提出了一种新的时空通道拟合注意力(SCTFA)模块,该模块可以通过使用历史积累的空间通道信息来指导SNN有效地捕获潜在的目标区域。通过在三个事件流数据集(DVS手势,SL-Animals-DVS和MNIST-DVS)上进行系统评估,我们证明了带有SCTFA模块(SCTFA-SNN)的SNN不仅显着超过了基线SNN(BL-SNN)(BL-SNN)(BL-SNN)以及其他两个具有退化注意力模块的SNN模型,但也通过现有最新方法实现了竞争精度。此外,我们的详细分析表明,所提出的SCTFA-SNN模型对噪声和出色的稳定性具有强大的稳健性,同时保持了可接受的复杂性和效率。总体而言,这些发现表明,适当纳入大脑的认知机制可能会提供一种有希望的方法来提高SNN的能力。
translated by 谷歌翻译
在本文中,我们介绍了一项新任务,口语视频接地(SVG),旨在将口语描述中所需的视频片段定位。与使用文本相比,使用音频需要模型直接利用与原始语音视频相关的有用音素和音节。此外,我们在语音音频中随机添加环境声音,进一步增加了此任务的困难并更好地模拟真实应用程序。为了纠正歧视性音素并从嘈杂的音频中提取与视频相关的信息,我们在音频预训练过程中开发了一种新颖的视频指导课程学习(VGCL),可以利用重要的视觉感知来帮助理解口语语言并抑制外部噪音。考虑到推理期间,模型无法获得地面真实视频片段,我们设计了一种课程策略,该策略将输入视频从地面真相转移到预训练期间的整个视频内容。最后,该模型可以学习如何从整个视频剪辑中提取关键的视觉信息,以帮助了解口语。此外,我们基于ActivityNet收集了第一个大规模口语视频接地数据集,该数据集称为ActivityNet语音数据集。广泛的实验表明,我们提出的视频指导课程学习可以促进预训练过程以获得相互的音频编码器,从而大大促进了口头视频接地任务的性能。此外,我们证明,在嘈杂的声音的情况下,我们的模型优于将视频与ASR转录本扎根的方法,进一步证明了我们课程策略的有效性。
translated by 谷歌翻译
作为一种概率建模技术,基于流的模型在无损压缩\ cite {idf,idf ++,lbb,ivpf,iflow}的领域表现出了巨大的潜力。与其他深层生成模型(例如自动回应,VAE)\ cite {bitswap,hilloc,pixelcnn ++,pixelsnail},这些模型明确地模拟了数据分布概率,因此基于流的模型的性能更好,因为它们的出色概率密度估计和满意度的概率和满意度的概率。在基于流量的模型中,多尺度体系结构提供了从浅层到输出层的快捷方式,从而大大降低了计算复杂性并避免添加更多层时性能降解。这对于构建基于先进的基于流动的可学习射击映射至关重要。此外,实用压缩任务中模型设计的轻量级要求表明,具有多尺度体系结构的流量在编码复杂性和压缩效率之间取得了最佳的权衡。
translated by 谷歌翻译
由于大规模数据集的可用性,通常在特定位置和良好的天气条件下收集的大规模数据集,近年来,自动驾驶汽车的感知进展已加速。然而,为了达到高安全要求,这些感知系统必须在包括雪和雨在内的各种天气条件下进行稳健运行。在本文中,我们提出了一个新数据集,以通过新颖的数据收集过程启用强大的自动驾驶 - 在不同场景(Urban,Highway,乡村,校园),天气,雪,雨,阳光下,沿着15公里的路线反复记录数据),时间(白天/晚上)以及交通状况(行人,骑自行车的人和汽车)。该数据集包括来自摄像机和激光雷达传感器的图像和点云,以及高精度GPS/ins以在跨路线上建立对应关系。该数据集包括使用Amodal掩码捕获部分遮挡和3D边界框的道路和对象注释。我们通过分析基准在道路和对象,深度估计和3D对象检测中的性能来证明该数据集的独特性。重复的路线为对象发现,持续学习和异常检测打开了新的研究方向。链接到ITHACA365:https://ithaca365.mae.cornell.edu/
translated by 谷歌翻译
深神经网络(DNN)的黑盒性质严重阻碍了其在特定场景中的性能改善和应用。近年来,基于类激活映射的方法已被广泛用于解释计算机视觉任务中模型的内部决策。但是,当此方法使用反向传播获得梯度时,它将在显着图中引起噪声,甚至找到与决策无关的特征。在本文中,我们提出了一个基于绝对价值类激活映射(ABS-CAM)方法,该方法优化了从反向传播中得出的梯度,并将所有这些梯度变成正梯度,以增强输出神经元激活的视觉特征,并改善。显着图的本地化能力。 ABS-CAM的框架分为两个阶段:生成初始显着性图并生成最终显着图。第一阶段通过优化梯度来提高显着性图的定位能力,第二阶段将初始显着性图与原始图像线性结合在一起,以增强显着性图的语义信息。我们对拟议方法进行定性和定量评估,包括删除,插入和指向游戏。实验结果表明,ABS-CAM显然可以消除显着性图中的噪声,并且可以更好地定位与决策相关的功能,并且优于以前的识别和定位任务中的方法。
translated by 谷歌翻译
旨在找到合成靶分子的反应途径的循环合成计划在化学和药物发现中起着重要作用。此任务通常被建模为搜索问题。最近,数据驱动的方法吸引了许多研究兴趣,并显示了反递归计划的有希望的结果。我们观察到在搜索过程中多次访问了相同的中间分子,并且通常在先前基于树的方法(例如,或树搜索,蒙特卡洛树搜索)中独立处理。这样的裁员使搜索过程效率低下。我们提出了基于图的搜索策略,以消除任何中间分子的冗余探索。由于图形上的搜索比在树上更复杂,因此我们进一步采用图形神经网络来指导图形搜索。同时,我们的方法可以在图中搜索一批目标,并在基于树的搜索方法中删除目标间重复。两个数据集的实验结果证明了我们方法的有效性。尤其是在广泛使用的USPTO基准测试中,我们将搜索成功率提高到99.47%,以2.6分提高了先前的最新性能。
translated by 谷歌翻译
尖峰神经网络(SNN)在各种智能场景中都表现出了出色的功能。大多数现有的训练SNN方法基于突触可塑性的概念。但是,在现实的大脑中学习还利用了神经元的内在非突触机制。生物神经元的尖峰阈值是一种关键的固有神经元特征,在毫秒的时间尺度上表现出丰富的动力学,并已被认为是一种促进神经信息处理的基本机制。在这项研究中,我们开发了一种新型的协同学习方法,该方法同时训练SNN中的突触权重和尖峰阈值。经过突触阈值协同学习(STL-SNN)训练的SNN在各种静态和神经形态数据集上的精度明显高于接受两种突触学习(SL)和阈值学习(TL)的单独学习模型(TL)的SNN。在训练过程中,协同学习方法优化了神经阈值,通过适当的触发速率为网络提供稳定的信号传输。进一步的分析表明,STL-SNN对嘈杂的数据是可靠的,并且对深网结构表现出低的能耗。此外,通过引入广义联合决策框架(JDF),可以进一步提高STL-SNN的性能。总体而言,我们的发现表明,突触和内在的非突触机制之间的生物学上合理的协同作用可能为开发高效的SNN学习方法提供了一种有希望的方法。
translated by 谷歌翻译